xAI lance des préversions de Grok-2 et ajoute la génération d’images sans garde-fous

xAI lance des préversions de Grok-2 et ajoute la génération d’images sans garde-fous

What could go wrong ?

11

xAI lance des préversions de Grok-2 et ajoute la génération d’images sans garde-fous

L’entreprise d’Elon Musk vient de lancer des préversions pour deux nouveaux modèles d’IA, Grok-2 et Grok-2 mini. Les performances sont présentées comme largement supérieures à la précédente version 1.5. La génération d’images fait également son entrée, avec déjà de sérieux dérapages potentiels.

xAI a été créée il y a à peine un an, en juillet 2023. À l’époque, Elon Musk avait déclaré que le but de cette nouvelle entreprise était de « comprendre la véritable nature de l’univers ». Fondée pour faire de la recherche sur l’intelligence artificielle, elle a récupéré rapidement d’anciens employés de Google, Microsoft ou encore OpenAI.

En novembre, une première version du modèle maison, Grok, a été rendue disponible. C’est en fait aussi bien le nom du modèle que de la fonction, un chatbot intégré dans X permettant différentes actions d’écriture, dont la reformulation des messages, ou encore les résumés d’actualités. Il avait été présenté comme sachant manier l’humour et insolent, tourné vers la « vérité » et « anti-woke ». Mais on l’a aussi pris en flagrant délit de fake news.

Depuis, xAI a réalisé une levée de fonds de 6 milliards de dollars pour concevoir des produits autour de Grok. Plus récemment, X a été accusé d’utiliser par défaut tous les messages de ses utilisateurs pour l’entrainement de Grok.

Une préversion pour Grok-2, une variante mini

Il aura fallu moins d’un an pour qu’une préversion de Grok-2 soit disponible. Dans un message publié hier soir sur son site, xAI présente son nouveau modèle comme particulièrement performant. Un tableau est d’ailleurs fourni, montrant les écarts significatifs avec l’actuelle version 1.5 du modèle. xAI indique que les scores de GPT-4-Turbo et GPT-4o proviennent de la version de mai et que ceux de Claude 3 Opus et Claude 3.5 Sonnet sont de juin.

Les deux nouveaux modèles « atteignent des niveaux de performance compétitifs par rapport à d'autres modèles frontières dans des domaines tels que les connaissances scientifiques de niveau supérieur (GPQA), les connaissances générales (MMLU, MMLU-Pro) et les problèmes de compétition en mathématiques (MATH). En outre, Grok-2 excelle dans les tâches basées sur la vision, offrant des performances de pointe dans le raisonnement mathématique visuel (MathVista) et dans la réponse à des questions basées sur des documents (DocVQA) », affirme l’entreprise.

Grok-2 mini, présenté comme « petit frère » de Grok-2, propose quant à lui « un équilibre entre la vitesse et la qualité des réponses ».

Cette préversion de Grok-2, de son vrai nom « sus-column-r », provoque depuis son apparition un vaste enthousiasme. Bien que ses performances doivent être mesurées par d’autres, le potentiel semble là. S’agissant en outre d’une « bêta », la version finale pourrait aller un peu plus loin. xAI affirme dans tous les cas que son nouveau modèle est particulièrement bon dans tout ce qui touche aux discussions, à la programmation et au raisonnement.

Les abonnés Premium et Premium+ sur X peuvent déjà utiliser Grok-2.

Une nouvelle API pour accompagner le lancement

D’ici la fin du mois, une nouvelle API sera proposée aux développeurs pour accéder aux modèles. Cette interface en profitera pour apporter plusieurs améliorations.

xAI met en avant « une nouvelle pile technologique » permettant des déploiements d’inférence multirégionaux, avec à la clé « une faible latence dans le monde entier ». L’authentification à facteurs multiples (Yubikey, Apple TouchID, TOTP…) deviendra obligatoire. Des statistiques de trafic plus précises seront aussi fournies, de même que des « analyses de facturation avancées (y compris des exportations de données détaillées) ».

Une API de gestion sera également proposée. Elle permettra la gestion des équipes, des utilisateurs et de la facturation.

Génération d’images : des dérapages en perspective

L’une des plus grosses nouveautés de Grok-2 est sa capacité à générer des images, via le modèle FLUX.1. Les premiers résultats suggèrent qu’aucun garde-fou n’ait été implémenté sur la fonction. Elle autorise en effet à peu près tout et n’importe quoi, y compris des images intégrant des personnalités politiques et autres personnes réelles.

Le développeur Benjamin De Krajer, franchement enthousiaste au sujet de Grok-2, s’est déjà amusé à publier plusieurs messages montrant les possibilités sur la génération d’images, dont plusieurs avec Donald Trump, par exemple en train de tirer avec deux revolvers. Une autre présente Georges W. Bush devant une ligne de cocaïne.

Bien que leur style soit volontairement peu réaliste, d’autres images publiées depuis montrent le potentiel de la machine. La fonction sera d’autant plus à surveiller qu’elle arrive en pleine campagne électorale américaine sous haute tension.

Le danger, bien sûr, est que les images viennent accompagner ou constituent d'inévitables fake news. Autre effet délétère de leur multiplication, la méfiance grandissante à l’égard des contenus, particulièrement quand la narration ne plait pas. Conséquence, il devient possible d’étiqueter un contenu de « fake news » et de jouer sur les capacités « reconnues » de l’IA à jouer avec les images.

Donald Trump a ainsi attaqué son adversaire Kamala Harris sur son propre réseau Truth Social, évoquant une photo publiée lors du passage de la candidate à l’élection présidentielle dans le Michigan. Selon l’ancien président, cette photo était générée par IA. Cependant, comme indiqué par Business Insider, la photo était authentique. Plusieurs messages sur X, multipliant les points de vue ou relayant des vidéos de l’évènement, l’ont prouvé.

Commentaires (11)


« comprendre la véritable nature de l’univers » ... en créant l'outil à fakeniouze utlime, et ouvertement orienté politiquement. What could go wrong ?
En effet, il faut combattre l'orientation politique et les biais inféodés dans ces solutions technologiques, qui sert bien trop souvent à disséminer des fakes news et à invisibiliser des populations entières !
Merci à Musk de combattre l'infâme Gemini : https://x.com/PaulHook_em/status/1823605689169686712

Myifee

En effet, il faut combattre l'orientation politique et les biais inféodés dans ces solutions technologiques, qui sert bien trop souvent à disséminer des fakes news et à invisibiliser des populations entières !
Merci à Musk de combattre l'infâme Gemini : https://x.com/PaulHook_em/status/1823605689169686712
ah oui en effet, grave problème que la génération de vikings noirs, inquiétant pour tous ceux qui essayeraient de demander des faits historiques à une IA qui suggère de manger des cailloux et de mettre de la colle dans les pizza :///
Quoi qu'on pense de la mise à disposition d'outils sans garde fou:
- soit X ment sur les résultats de bench (je n'ai lu récemment aucune publication où le nouveau modèle surclasse tous les autres dans tous les domaines)
- soit X ne ment pas, et il est bien plus "facile" d'obtenir de bons résultats sans garde fou. (j'ai cru comprendre que cette dernière étape de pondération après l'entraînement était très chronophage, et très complexe)

En tout cas, comparé aux centaines de milliards et années investis par les autres firmes du secteur, pour la plupart a priori bien plus que pour Grock, en tant que non spécialiste, je ne vois pas d'autre explication. Quelqu'un aurait une hypothèse alternative à proposer ?
Ne pas confondre puissance et usage :)

Vincent Hermann

Ne pas confondre puissance et usage :)
Je n'ai pas compris... :-/
Non, les résultats montrent que Grok 2 est nettement inférieur à Claude 3.5 dans à peu près tous les domaines.

De manière générale, on est dans une phase où de nouveaux modèles surclassant les précédents sortent tous les mois voire toutes les semaines.

Musk a lui aussi investi des milliards pour acheter des H100 à NVIDIA, il s'est même vanté d'en avoir acheté plus que les autres. Il est aussi possible que le modèle de Grok 2 soit plus gros que les concurrents équivalents, et donc coûte plus cher à faire tourner.
J'ai hâte de voir un article apparaître ici titré "Une fausse image générée par Grok montrant Elon Musk faisant XXX pousse X a mettre en pause sa fonctionnalité le temps de mettre en place des garde fous" (ou un titre plus court, mais vous avez l'idée). :popcorn:
Une simple image de Musk tenant un panneau sur lequel on peut lire "votez KAMALA" devrait amplement suffire ;)

fdorin

Une simple image de Musk tenant un panneau sur lequel on peut lire "votez KAMALA" devrait amplement suffire ;)
Non, il faudrait quelque chose de plus crédible pour que ça buzz. ^^'
Modifié le 16/08/2024 à 14h09

Historique des modifications :

Posté le 16/08/2024 à 14h09


Non, il faudrait quelque chose de plus crédible. ^^'

Je me demande si ce n'est pas un mal pour un bien.

Je ne suis pas sûr que les bridages soient dans le modèle (genre le modèle ne connaitrait pas tel ou tel nom), mais ils sont ajoutés a posteriori, en annexe du prompt.
Même sur des implémentation Cloud où ce type de limitation est facile à mettre (tant que les admin du cloud les acceptent), ba c'est pas la panacée.
Maintenant que l'on commence à voir des implémentations locales, on aura inévitablement des implémentations non bridées.

Surtout que la satire reste un droit.
Et il n'y a pas eu besoin d'attendre l'IA pour détourner des images de façon trompeuse.

Je crains que l'unique façon de nous sortir de cette impasse, c'est l'éducation et l'esprit critique.

Bon, OK, on est dans la merde, mais il va bien falloir affronter ce nouveau risque.
Fermer